EVENTO
Desenvolvimento de algoritmos evolutivos para aprimorar a busca conformacional na metodologia de PSP do programa Rosetta
Tipo de evento: Seminário de Avaliação - Série A
Proteínas são macromoléculas envolvidas em praticamente todos os processos biológicos. Entender sua estruturação e consequente funcionamento é um dos ramos mais férteis e desafiadores da biologia moderna. Em sua hipótese termodinâmica, Anfinsen afirma que a estrutura 3D de uma proteı́na depende unicamente da sua sequência de aminoácidos e que, uma estrutura nativa, sob condições fisiológicas, é a que possui a menor energia livre de Gibbs. Um dos principais desafios da biologia molecular computacional têm sido o desenvolvimento de métodos capazes de prever a estrutura 3D de proteı́nas (PSP). Apesar da PSP ter avançado consideravelmente nas últimas décadas, ainda não é capaz de gerar modelos tão precisos quanto as estruturas obtidas via métodos experimentais. O evento CASP (The Critical Assessment of Protein Structure Prediction), que ocorre bianualmente desde 1994, vêm documentando o avanço nos métodos computacionais desenvolvidos para PSP, onde algumas edições merecem destaque pelo surgimento de técnicas, que hoje constituem pilares nos estudos de PSP. Como o caso do CASP4 (2000), que iniciou a utilização de bibliotecas de fragmentos, oriundos de trechos de proteı́nas com estrutura 3D determinada experimentalmente. As técnicas de PSP hoje são subdivididas em dois grupos: a Predição baseada em Templates, quando proteı́nas resolvidas experimentalmente são utilizadas como moldes para a geração de novos modelos e a Predição Free Modelling, onde a geração de novos modelos é obtida estritamente a partir de princı́pios fı́ísico-quı́micos (ab initio) ou quando algum tipo de informação experimental é utilizada (de novo). As abordagens de novo baseadas em fragmentos permitem a redução do espaço de busca conformacional viabilizando a PSP para proteínas grandes, com um número elevado de resı́duos de aminoácidos. Existem dois desafios principais que um método de PSP tem que enfrentar: a imprecisão das funções de energia, devido às simplificaçoes teóricas introduzidas para tornar o modelo viável computacionalmente e o tamanho e complexidade do espaço de busca a ser investigado. As imprecisões nas funções combinadas com a dificuldade de se investigar o espaço conformacional dão origem a problemas de amostragem. A imprecisão nas funções torna a identificação de modelos similares à estrutura nativa uma tarefa difı́cil, sendo que, em alguns casos, a estrutura nativa não pertence sequer à bacia de mı́nimo global da superfı́cie de energia investigada. As avaliações nos eventos CASP indicam o programa Rosetta, que utiliza a estratégia de biblioteca de fragmentos, como um dos métodos de PSP de novo mais bem sucedidos. Seu algoritmo utiliza fragmentos de tamanho entre 3 e 9 resíduos para orientar a busca no espaço conformacional das estruturas protéicas. A inserção destes fragmentos é realizada por um algoritmo de Monte-Carlo, que insere fragmentos na estrutura utilizando Simulated Annealing (SA), avaliado por funções objetivo mistas baseadas tanto em campo de força quanto em conhecimento proveniente de bancos de dados de estruturas determinadas experimentalmente. O Rosetta utiliza, em sua metodologia de novo, dois tipos de função de energia: Coarse Grained ou de baixa resolução, que trata as cadeias laterais como centroides e All Atom ou de alta resolução que combina o potencial de Lennard-Jones e termos de energia livre de aminoácidos dependentes da conformação. Sua estratégia de otimização precisa utilizar um número muito grande de execuções independentes do algoritmo, onde cada execução procura convergir rapidamente para um mı́nimo da superfı́cie de energia. Acredita-se que a função de energia do Rosetta seja o ponto forte de sua metodologia, mas que a sua estratégia de otimizaçao não seja capaz de investigar de maneira ótima o espaço de busca. Pesquisas bibliográficas sobre trabalhos relacionados, mostra de fato que o algoritmo do Rosetta não consegue explorar de maneira ótima o espaço conformacional multimodal dos fragmentos, o que reforça a ideia de se utilizar um método distinto para melhorar sua busca conformacional. O programa EdaFold, por exemplo, adota a mesma abordagem baseada em fragmentos do Rosetta, mas utiliza um algoritmo de estimativa de distribuição (Estimation of Distribution Algorithm EDA), para compartilhar informações entre diferentes execuções paralelas e assim aprimorar o processo de busca, obtendo resultados ligeiramente melhores do que o Rosetta. O objetivo então é melhorar a busca conformacional do Rosetta através da introdução de uma metaheurística evolutiva, de forma a obter ganhos tanto na qualidade dos modelos preditos, quanto na redução do custo computacional necessário para se obter um modelo de boa qualidade. Desenvolver técnicas, guiadas pela experiência do Grupo de Modelagem Molecular em Sistemas Biológicos (GMMSB/LNCC) no desenvolvimento de seus próprios programas (GAPF para PSP e DockThor para Docking) que utilizam estratégias de otimização baseadas em algoritmo genético (AG) de múltiplos mı́nimos, para gerar uma diversidade útil de modelos alternativos, que cubra de forma eficaz os múltiplos mı́nimos de energia gerados pelas funções objetivo do Rosetta. Utilizando um algoritmo evolutivo geracional com substituição parental por aglomeração (crowding), onde a prole de soluções substitui os elementos mais semelhantes estruturalmente na população parental, bem como a introdução de mais conceitos evolutivos como recombinação e operadores genéticos.
Data Início: 28/08/2019 Hora: 14:00 Data Fim: 28/08/2019 Hora: 17:00
Local: LNCC - Laboratório Nacional de Computação Ciêntifica - Auditorio A
Aluno: Paulo Roberto Teixeira Werdt - Instituto Superior de Tecnologia e Ciência da Computação - ISTCC-P
Orientador: Laurent Emmanuel Dardenne - Laboratório Nacional de Computação Científica - LNCC
Participante Banca Examinadora: Helio José Corrêa Barbosa - Laboratório Nacional de Computação Científica - LNCC/MCTI Laurent Emmanuel Dardenne - Laboratório Nacional de Computação Científica - LNCC Pedro Geraldo Pascutti - IBCCF/UFRJ - IBCCF/UFRJ Renato Simões Silva - Laboratório Nacional de Computação Científica - LNCC
Suplente Banca Examinadora: Fábio Lima Custódio - Laboratório Nacional de Computação Científica - LNCC